Standalone BLAST
Поиск в геноме участков, кодирующих белки, похожие на THIE_BACSU
Зная аминокислотную последовательность вашего белка из THIE_BACSU из Bacillus subtilis, можно определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома. Для этого создаем в своей рабочей директории индексные файлы пакета BLAST+ для поиска по G.thermodenitrificans:
makeblastdb -in gt_genome.fasta -dbtype nucl -out gt.fasta
Затем выбераем подходящую для решения данной задачи программу из пакета BLAST+ и проведим с ее помощью поиск с порогом на E-value 0,001:
tblastn -query query.fasta -db gt.fasta -out result.txt -evalue 0.001 -outfmt 6
Полученные данные приведены в таблице ниже.
Таблица 1. Поиск гомологов белка THIE_BACSU в геноме G.thermodenitrificans.
Число находок с E-value < 0,001
|
2
|
E-value лучшей находки
|
1e-60
|
Координаты лучшей находки
|
от 1450236 до 1450829
|
Доля последовательности THIE_BACSU, вошедшая в выравнивание с лучшей находкой
|
89%
|
Поиск гомологов некодирующих последовательностей программой BLASTN
Имея последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5, можно определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.
- Запустили программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta, в качестве банка – геном G.thermodenitrificans, затем использовали команду:
blastn -task blastn -query trna_bacsu.fasta -db gt.fasta -out trna.out -evalue 0.01 -outfmt 7
- Надо запустить grep так, чтобы на выходе получилось количество находок именно для данной последовательности, то есть число:
grep "\# [0-9]*"
- Затем создаем колонку из названий входных последовательностей, используя команду:
grep ">" trna_bacsu.fasta
- Потом импортируем её в Excel.
Поиск гомологов при изменённых параметрах программы BLASTN
Повторила предыдущее задание ещё два раза с изменёнными параметрами программы, каждый раз сохраняя результаты в новый файл.
В первый раз изменила весовую матрицу, то есть параметры -reward и -penalty. Установила -reward 5 и -penalty -4, также поменяла параметры -gapopen и -gapextend на -gapopen 8 и -gapextend 6.
Во второй раз, оставила те же значения параметров -reward, -penalty, -gapopen и -gapextend, но поменяла значение параметра -word_size на минимально возможное, то есть на -word_size 4.
Использованные команды:
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 > 1111
real 0m0.570s
user 0m0.364s
sys 0m0.200s
grep "Fields" 1111 | wc –l
81
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 > 1112
real 0m0.679s
user 0m0.420s
sys 0m0.256s
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 > 1113
real 0m21.151s
user 0m20.900s
sys 0m0.224s
time blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 > 1114
real 0m15.953s
user 0m15.700s
sys 0m0.244s
Результат представлен в виде Excel-файла trna.xls, лежащий в директории H:\term3\block3\BLAST.
Анализ результатов
Для работы была выбрана глутаминовая тРНК:
Последовательность тРНК из G.thermodenitrificans: gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtggttcgagtccactcaggcccacca
Последовательность тРНК из Bacillus subtilis: tgggctatagccaagcggtaaggcaacggactttgactccgtcatgcgttggttcgaatccagctagcccagtca
Выравнивание две последовательности программой needle:
# Aligned_sequences: 2
# 1: trna
# 2: trna_gln
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 85
# Identity: 53/85 (62.4%)
# Similarity: 53/85 (62.4%)
# Gaps: 18/85 (21.2%)
# Score: 115.0
#
#
#=======================================
trna 1 -gggcctgtagctcagctggttag--agcgcac---gcctgataagcgtg 44
||| ||.||||..||| |||.|| |.||.|| |.|| .|||.
trna_gln 1 tggg-ctatagccaagc-ggtaaggcaacggactttgact-----ccgtc 43
trna 45 aggtcggtggttcgagtcca-ctcaggccca-cca 77
|.| ||.||||||||.|||| || .||||| .||
trna_gln 44 atg-cgttggttcgaatccagct--agcccagtca 75
В целом последовательности схожи. Их процент идентичности довольно высок, однако присутствует несколько гэпов. Данное выравнивание подтверждает консервативность структуры тРНК. Так как выравнивание имеет большой вес, то различия в последовательностях не существенны для выполнения их функции.
Гомологичный участок в поле FT записи EMBL, описывающей геном бактерии проаннотирован как тРНК.
FT tRNA 88985..89057
FT /product="transfert RNA-Thr"
FT /note="tRNAscan-SE vs 1.3 result - Cove score = 83.52"
© Novikova Maria, 2013
Последнее обновление: 16.12.2013